년 AI 및 로봇 연구 동향
1. 서론
1989년은 인공지능(AI) 역사에서 종종 간과되지만, 실은 지적 대전환이 일어난 결정적인 시기였다. 소위 ’AI 겨울’의 끝자락에서, 기존의 패러다임에 도전하는 새로운 아이디어들이 이론적 가능성을 넘어 실질적인 성과로 나타나기 시작한 분기점이었다.1 이 시기 AI 연구 지형은 세 가지 핵심적인 지적 흐름이 서로 경쟁하고 공존하며 미래의 방향을 모색하고 있었다. 첫째는 지식 표현, 논리적 추론, 계획을 중심으로 한 전통적 강자, **기호주의 AI(Symbolic AI)**였다.3 둘째는 1980년대 중반 역전파 알고리즘의 재발견으로 부활한, 데이터로부터 표현을 학습하는 신경망 기반의 **연결주의(Connectionism)**였다.2 셋째는 물리적 세계와의 직접적인 상호작용과 체화(embodiment)를 통해 지능이 발현된다고 주장하는 급진적 대안, **행동 기반 AI(Behavior-Based AI)**였다.2
이러한 지적 역동성과 더불어, 1989년은 AI 연구의 무게 중심이 순수 이론에서 실용적 응용으로 이동하는 중요한 전환점을 맞이했다. 그해 스탠포드 대학에서 미국 인공지능학회(AAAI) 주최로 열린 제1회 ’혁신적 AI 응용 학회(IAAI, Innovative Applications of Artificial Intelligence Conference)’는 이러한 변화를 상징적으로 보여준다.7 이 학회에서는 ’혁신’의 정의를 두고 열띤 토론이 벌어졌는데, 이는 새로운 AI 기술 자체의 발전뿐만 아니라 기존 기술의 통합이나 새로운 문제 영역으로의 적용 역시 중요한 혁신으로 인정받아야 한다는 시대적 고민을 드러낸다.7
본 보고서는 1989년에 발표된 네 가지 핵심 연구—얀 르쿤의 필기체 인식 신경망, 크리스토퍼 왓킨스의 Q-러닝, 로드니 브룩스의 행동 기반 로봇, 그리고 딘과 카나자와의 동적 베이즈 네트워크—를 심층적으로 분석한다. 또한, 당시 주요 학술 대회의 동향을 통해 시대적 맥락을 조명함으로써 1989년이 어떻게 현대 AI의 기술적, 철학적 토대를 마련했는지 논증하고자 한다.
표 1: 1989년 AI 연구 패러다임 비교
| 패러다임 | 핵심 철학 | 주요 방법론 | 대표적 1989년 연구/동향 | 주요 목표 |
|---|---|---|---|---|
| 기호주의 AI | 지능은 기호(symbol)의 조작을 통해 구현된다. 명시적인 지식 표현과 논리적 추론이 핵심이다. | 규칙 기반 시스템, 논리 프로그래밍, 제약 만족 문제(CSP), 계획 알고리즘 | IJCAI ’89에서 발표된 다수의 지식 표현, 비단조 추론, 계획 관련 논문들 3 | 인간 전문가의 추론 과정을 모방하고 자동화하는 것. |
| 연결주의 | 지능은 단순한 처리 장치(뉴런)들의 상호 연결된 네트워크에서 창발한다. 지식은 데이터로부터 학습된 연결 강도(가중치)에 암묵적으로 저장된다. | 다층 퍼셉트론, 역전파 알고리즘, 합성곱 신경망의 원형 | 얀 르쿤의 필기체 우편번호 인식 5, 커트 호닉의 보편적 근사 정리 증명 1 | 원시 데이터로부터 유용한 특징 표현을 자동으로 학습하는 것. |
| 행동 기반 AI | 지능은 추상적 표현이나 계획이 아닌, 물리적 세계와의 직접적이고 반응적인 상호작용을 통해 발현된다. “세상은 그 자체로 최고의 모델이다.” | 포섭 구조, 증강 유한 상태 기계(AFSM), 분산 제어 시스템 | 로드니 브룩스의 6족 보행 로봇 ‘징기스’ 6 | 동적이고 불확실한 환경에서 강건하게 작동하는 자율 에이전트를 구현하는 것. |
2. 연결주의의 실용적 도약: 역전파와 합성곱 신경망의 원형
2.1 배경: 신경망의 부활과 이론적 토대
1980년대 후반은 연결주의가 긴 침체기를 벗어나 화려하게 부활한 시기였다. 그 중심에는 1986년 데이비드 럼멜하트, 제프리 힌튼 등에 의해 대중화된 역전파(Backpropagation) 알고리즘이 있었다.2 역전파는 다층 신경망의 가중치를 효율적으로 학습시킬 수 있는 방법을 제공함으로써, 이전에는 해결하기 어려웠던 복잡한 문제에 신경망을 적용할 수 있는 길을 열었다.
이러한 경험적 성공에 더해, 1989년은 신경망 접근법에 강력한 이론적 정당성을 부여한 해이기도 했다. 커트 호닉(Kurt Hornik)은 표준적인 다층 피드포워드 네트워크가 충분한 수의 은닉 유닛만 있다면, 어떤 연속 함수든 원하는 정확도로 근사할 수 있음을 수학적으로 증명했다.1 이 **보편적 근사 정리(Universal Approximation Theorem)**는 신경망이 단순히 특정 문제에 대한 휴리스틱한 해결책이 아니라, 광범위한 함수를 표현할 수 있는 보편적인 함수 근사기(universal function approximator)임을 보장했다. 이는 신경망 연구를 과학적 방법론의 반열에 올려놓는 데 결정적인 역할을 했다.
2.2 얀 르쿤의 “역전파를 이용한 필기체 우편번호 인식” 심층 분석
이러한 배경 속에서, 1989년 AT&T 벨 연구소의 얀 르쿤(Yann LeCun)과 그의 동료들은 학술지 Neural Computation에 기념비적인 논문 “Backpropagation Applied to Handwritten Zip Code Recognition“을 발표했다.10 이 연구는 당시 신경망 분야의 이론적, 경험적 성과를 집대성하여, AI가 통제된 실험실 환경을 넘어 복잡하고 가변성 높은 실제 데이터에 성공적으로 적용될 수 있음을 입증한 최초의 사례 중 하나로 평가받는다.
연구의 목표는 미국 우편 서비스(U.S. Postal Service)에서 수집한 실제 필기체 우편번호 숫자 이미지를 자동으로 인식하는 것이었다.5 이 데이터는 다양한 사람들의 각기 다른 필체, 필기구, 필기 습관 등으로 인해 형태가 매우 불규칙하여 기존의 패턴 인식 기술로는 해결하기 어려운 문제였다.
이 연구의 가장 중요한 철학적 기여는 사전 지식(a priori knowledge)을 신경망의 구조 자체에 통합한 것이다.5 이전의 많은 접근법이 이미지로부터 특징(feature)을 추출하는 전처리 단계와, 이 특징을 입력받아 분류하는 학습 단계를 분리했던 반면, 르쿤의 모델은 문자의 2차원 구조, 픽셀 간의 지역적 상관관계(locality), 그리고 객체의 위치가 변하더라도 그 본질은 변하지 않는다는 위치 불변성(shift invariance)과 같은 시각 세계의 근본적인 속성을 네트워크 아키텍처에 직접 녹여냈다.
또한, 이 모델은 수작업으로 설계된 특징 벡터(feature vectors) 대신, 크기가 16x16 픽셀로 정규화된 이미지의 원시 픽셀 값을 직접 입력으로 사용했다.12 이는 신경망이 저수준의 원시 정보로부터 분류에 유용한 고수준의 계층적 특징을 스스로 학습할 수 있는 능력을 가졌음을 명확히 보여준 사례였다. 이 접근법은 특징 공학(feature engineering)에 소요되는 막대한 노력을 줄이고, 데이터로부터 직접 지식을 추출하는 현대 딥러닝의 핵심 원칙을 제시했다.
2.3 합성곱 신경망(CNN)의 원형적 구조
르쿤의 1989년 네트워크는 오늘날 합성곱 신경망(Convolutional Neural Network, CNN)의 핵심 구성 요소를 거의 모두 포함하고 있었다. 이는 단순한 아이디어의 제시를 넘어, 실용적인 문제 해결을 위한 구체적인 공학적 설계의 승리였다.
-
지역적 수용 필드(Local Receptive Fields): 은닉층의 각 뉴런은 입력 이미지의 전체 픽셀에 연결되는 대신, 5x5와 같은 작은 국소 영역에만 연결되었다.5 이는 인간의 시각 피질에서 영감을 얻은 구조로, 이미지의 한 픽셀은 주변 픽셀들과 강한 상관관계를 갖는다는 사실을 활용한 것이다. 이로써 네트워크는 전체 이미지의 복잡한 패턴을 한 번에 학습하는 대신, 선, 모서리, 곡선과 같은 지역적인 기본 특징들을 먼저 감지하게 된다.
-
가중치 공유(Weight Sharing): 이 연구의 가장 혁신적인 부분은 가중치 공유 개념이다. 하나의 **특징 맵(feature map)**을 구성하는 모든 뉴런들은 동일한 가중치 집합(오늘날의 ‘커널’ 또는 ‘필터’)을 공유하도록 강제되었다.5 예를 들어, 수직선을 감지하는 가중치 집합이 있다면, 이 가중치들은 이미지의 모든 위치에 동일하게 적용된다. 이 방식은 두 가지 엄청난 이점을 가져왔다. 첫째, 이미지의 어느 위치에 특징이 나타나든 동일하게 감지할 수 있는 위치 불변성을 자연스럽게 확보했다. 둘째, 학습해야 할 자유 파라미터의 수를 획기적으로 줄여, 제한된 데이터로도 더 나은 일반화 성능을 달성할 수 있게 했다. 이 가중치 공유 메커니즘은 사실상 이미지 전체에 대해 특정 필터를 적용하는 합성곱(convolution) 연산과 수학적으로 동일하다.
-
서브샘플링(Subsampling): 특징 맵의 공간적 해상도를 의도적으로 낮추는 서브샘플링(현대의 풀링(pooling)에 해당) 계층이 도입되었다.5 이는 특징의 정확한 위치보다는 존재 여부에 더 집중하게 만들어, 입력 이미지의 작은 이동이나 왜곡에 대해 모델이 덜 민감하게 반응하도록 하는 효과를 낳았다. 또한, 데이터의 크기를 줄여 후속 계층의 계산 부담을 경감시키는 역할도 했다.
이러한 구성 요소들은 계층적으로 결합되었다. 네트워크는 입력 이미지로부터 지역적 수용 필드와 가중치 공유를 통해 저수준 특징 맵(H1)을 추출하고, 서브샘플링(H2)을 통해 위치 민감도를 줄인 후, 다시 이들을 조합하여 더 복잡하고 추상적인 고수준 특징 맵(H3)을 만드는 과정을 반복했다.5 마지막으로, 이렇게 추출된 고수준 특징들은 완전 연결층(fully connected layer)을 거쳐 최종적으로 10개의 숫자 클래스 중 하나로 분류되었다. 이 구조는 르쿤의 논문이 단순히 역전파 알고리즘의 응용 사례가 아니라, 문제의 본질(시각 정보 처리)을 꿰뚫는 깊은 통찰을 바탕으로 한 아키텍처 설계의 승리였음을 보여준다. 이는 AI의 발전이 학습 알고리즘의 혁신뿐만 아니라, 문제 영역에 대한 사전 지식을 효과적으로 통합하는 구조적 혁신에 의해 주도될 수 있음을 증명한 사건이었다.
표 2: 얀 르쿤의 1989년 신경망 구조 요약
| 계층 | 설명 | 특징 맵/유닛 수 | 커널 크기/수용 필드 | 연결 수 | 학습 파라미터 수 |
|---|---|---|---|---|---|
| 입력 | 16x16 정규화 이미지 | 256 유닛 | - | - | - |
| H1 | 합성곱 계층 (지역적 연결, 가중치 공유) | 8x8 크기의 특징 맵 8개 | 5x5 | 16,384 | 200 (8 x 25) + 64 |
| H2 | 서브샘플링 계층 | 4x4 크기의 특징 맵 12개 | H1의 8개 맵 내 5x5 영역 | 38,592 | 2,400 (12 x 8 x 25) + 192 |
| H3 | 완전 연결 은닉층 | 30 유닛 | H2의 모든 유닛 | 5,760 | 5,790 |
| 출력 | 완전 연결 출력층 | 10 유닛 | H3의 모든 유닛 | 300 | 310 |
| 총계 | ~61,000 | ~8,900 |
참고: 파라미터 수는 논문의 설명(예: H2에서 2592개)을 기반으로 재구성되었으며, 바이어스를 포함한다.5
3. 강화학습의 초석: 크리스토퍼 왓킨스의 Q-러닝
3.1 Q-러닝의 탄생: 지연된 보상 문제의 해결
1989년, 연결주의와 행동 기반 AI가 각각 실용성과 철학적 대안으로 주목받는 동안, 또 다른 조용하지만 근본적인 혁명이 일어나고 있었다. 크리스토퍼 왓킨스(Christopher Watkins)는 케임브리지 대학교 킹스 칼리지에서 제출한 박사학위 논문 “지연된 보상으로부터의 학습(Learning from delayed rewards)“을 통해 **Q-러닝(Q-learning)**이라는 알고리즘을 세상에 처음 선보였다.15
Q-러닝은 강화학습(Reinforcement Learning) 분야의 핵심적인 난제, 즉 ‘지연된 보상(delayed reward)’ 문제를 해결하기 위한 강력한 해법을 제시했다. 체스 게임을 예로 들면, 게임 초반에 둔 하나의 수가 승패에 결정적인 영향을 미칠 수 있지만, 그 수에 대한 보상(승리)은 수십, 수백 수가 지난 후에야 주어진다. 이처럼 어떤 행동의 결과가 즉각적으로 나타나지 않는 상황에서, 어떤 행동이 장기적으로 좋은 결과를 가져오는지 학습하는 것은 매우 어려운 문제였다. Q-러닝은 이러한 문제에 대한 체계적이고 수학적으로 견고한 학습 프레임워크를 제공했다.
3.2 모델-프리 접근법의 혁신
Q-러닝의 가장 큰 혁신 중 하나는 환경의 작동 방식에 대한 명시적인 모델(예: 상태 전이 확률, 보상 함수) 없이 학습이 가능한 모델-프리(model-free) 접근법이라는 점이다.15 이전의 많은 동적 프로그래밍 기반 해법들은 환경에 대한 완벽한 지식을 가정해야만 최적의 정책을 계산할 수 있었다. 하지만 현실 세계의 대부분 문제는 환경 모델을 미리 알기 어렵거나, 모델을 구축하는 것 자체가 매우 복잡하다.
Q-러닝은 에이전트가 환경과 직접 상호작용하며 얻는 경험, 즉 **시행착오(trial-and-error)**를 통해 학습을 진행한다. 에이전트는 특정 상태에서 특정 행동을 취하고, 그 결과로 주어지는 즉각적인 보상과 다음 상태를 관찰한다. 이 정보를 바탕으로 자신의 정책을 점진적으로 개선해 나간다. 이러한 모델-프리 방식은 AI가 미지의 복잡한 환경에 적응하고 최적의 행동 방식을 스스로 터득할 수 있는 길을 열어주었다.
3.3 Q-러닝 알고리즘의 수학적 원리
Q-러닝의 핵심은 **상태-행동 가치 함수(state-action value function)**인 Q(s, a)를 학습하는 것이다. Q(s, a)는 현재 상태 s에서 행동 a를 취했을 때, 그 이후부터 받을 것으로 기대되는 미래 보상의 총합(할인된 값)을 의미한다.16 즉, Q(s, a) 값이 높을수록 그 행동이 장기적으로 더 유리하다는 뜻이다. 최적의 Q-함수인 Q^*(s, a)를 알게 되면, 에이전트는 어떤 상태 s에서든 Q^*(s, a)를 최대화하는 행동 a를 선택함으로써 최적의 정책을 따를 수 있다.
Q-러닝은 동적 프로그래밍의 **벨만 최적 방정식(Bellman optimality equation)**과 리처드 서튼(Richard Sutton)의 시간차 학습(Temporal Difference, TD learning) 아이디어에 깊은 뿌리를 두고 있다.16 학습은 현재의 Q-값 추정치와, 한 단계 행동을 실행한 후의 경험을 바탕으로 계산한 새로운 ‘목표값’ 사이의 차이를 줄여나가는 방식으로 이루어진다. 이 과정은 다음의 업데이트 규칙에 의해 수학적으로 정의된다.16
Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \left[ r_{t+1} + \gamma \max_{a} Q(s_{t+1}, a) - Q(s_t, a_t) \right]
이 식의 각 항은 다음과 같은 의미를 가진다.
-
s_t, a_t: 시간 t에서의 상태와 행동
-
\alpha: 학습률(Learning Rate). 0과 1 사이의 값으로, 새로운 정보(TD 오차)를 얼마나 반영할지 결정한다.
-
r_{t+1}: 행동 a_t를 수행한 후 받은 즉각적인 보상.
-
\gamma: 할인율(Discount Factor). 0과 1 사이의 값으로, 미래 보상의 현재 가치를 얼마나 중요하게 여길지 결정한다. \gamma가 1에 가까울수록 미래지향적이 된다.
-
\max_{a} Q(s_{t+1}, a): 다음 상태 s_{t+1}에서 취할 수 있는 모든 행동들 중 가장 높은 Q-값을 갖는 행동의 가치. 이는 다음 상태의 가치에 대한 현재의 최선 추정치다.
-
r_{t+1} + \gamma \max_{a} Q(s_{t+1}, a) : TD 목표값(TD Target). 즉각적 보상과 다음 상태의 추정 가치를 합한 것으로, Q(s_t, a_t)가 수렴해야 할 이상적인 목표값이다.
-
[ r_{t+1} + \gamma \max_{a} Q(s_{t+1}, a) - Q(s_t, a_t) ]: 시간차 오차(Temporal Difference Error). 현재의 추정치와 더 나은 목표값 사이의 차이를 나타낸다. Q-러닝은 이 오차를 줄이는 방향으로 Q-값을 갱신한다.
3.4 Q-러닝의 의의와 장기적 영향
Q-러닝이 강화학습 분야에 미친 가장 큰 영향 중 하나는 그 이론적 견고함에 있다. 왓킨스는 자신의 논문에서, 모든 상태-행동 쌍을 무한히 반복해서 방문하고 학습률 \alpha를 적절히 감소시킨다는 조건 하에, Q-러닝이 최적의 상태-행동 가치 함수 Q^*로 확률 1로 수렴함을 증명하는 개요를 제시했다.15 이 수렴 보장은 Q-러닝을 단순한 휴리스틱이 아닌, 수학적으로 잘 정립된 알고리즘으로 만들었으며, 이후 강화학습 연구의 굳건한 이론적 초석이 되었다.
1989년에 제시된 이 단순하고 우아한 알고리즘은 이후 수십 년간 강화학습 분야에서 가장 영향력 있는 아이디어 중 하나로 발전했다. 특히, 상태와 행동 공간이 매우 큰 문제에 대응하기 위해 Q-함수를 거대한 테이블이 아닌 신경망으로 근사하는 아이디어와 결합되면서, 2013년 딥마인드가 아타리 게임을 마스터한 **딥 Q-네트워크(Deep Q-Network, DQN)**로 이어졌다.16 이처럼 1989년 왓킨스의 연구는 오늘날 인공지능의 가장 흥미로운 분야 중 하나인 딥 강화학습의 직접적인 기원으로 평가받는다.
4. 로봇 공학의 패러다임 전환: 로드니 브룩스의 행동 기반 로봇
4.1 기존 패러다임에 대한 비판: “감지-계획-행동“의 한계
1989년, MIT 인공지능 연구소의 로드니 브룩스(Rodney Brooks)는 당시 로봇 공학계를 지배하던 패러다임에 근본적인 의문을 제기하며 새로운 방향을 제시했다. 그가 비판의 대상으로 삼은 것은 감지-계획-행동(Sense-Plan-Act, SPA) 모델이었다.2 SPA 패러다임은 로봇이 먼저 센서를 통해 세상을 인식하여 정교한 내부 세계 모델을 구축하고(Sense), 그 모델 위에서 목표를 달성하기 위한 최적의 행동 순서를 계획한 후(Plan), 계획에 따라 행동을 실행(Act)하는 순차적인 정보 처리 과정을 가정했다.
브룩스는 이러한 접근법이 실제 세계의 동적이고 불확실한 특성을 감당하기에 너무나 취약하다고 주장했다. 완벽한 세계 모델을 구축하는 것은 거의 불가능하며, 설령 가능하다 하더라도 모델을 만들고 복잡한 계획을 수립하는 데 너무 많은 시간이 걸려 급변하는 환경에 실시간으로 대응할 수 없다는 것이다. 그는 “코끼리는 체스를 두지 않는다(Elephants Don’t Play Chess)“라는 도발적인 제목의 논문을 통해, 지능의 본질이 추상적인 기호 조작이나 논리적 추론에 있는 것이 아니라, 물리적 세계와의 직접적인 상호작용 능력에 있다고 역설했다.2
그의 철학은 “세상은 그 자체로 최고의 모델이다(The world is its own best model)“라는 말로 요약된다.2 로봇은 복잡한 내부 표현(representation)을 구축하려 애쓰는 대신, 필요할 때마다 세상을 직접 감지하고 즉각적으로 반응해야 한다는 것이다. 이는 체화된 인지(Embodied Cognition) 철학의 핵심으로, 지능이 뇌 안에만 갇혀 있는 것이 아니라, 신체(body)와 환경(environment)의 상호작용 속에서 발현된다는 관점이다.2
4.2 새로운 제안: 포섭 구조(Subsumption Architecture)
SPA 패러다임의 대안으로 브룩스가 제안한 것이 바로 **포섭 구조(Subsumption Architecture)**이다.6 이 구조는 로봇 제어 시스템을 전통적인 기능적 분해(예: 인식, 모델링, 계획, 실행)가 아닌, 행동(behavior) 단위의 계층으로 분해한다.
-
계층적 행동 모듈: 시스템은 여러 개의 행동 계층으로 구성된다. 가장 낮은 계층에는 “장애물 회피“와 같은 가장 기본적인 생존 행동이 위치한다. 그 위로 “배회하기”, “탐색하기”, “물체 집기” 등 점차 더 복잡하고 목표 지향적인 행동 계층들이 쌓인다.6 각 계층은 독립적으로 작동하며, 센서 입력을 받아 직접 액추에이터 출력을 생성한다.
-
억제(Inhibition)와 제압(Suppression): 계층 간의 상호작용은 매우 단순한 메커니즘을 통해 이루어진다. 상위 계층은 하위 계층의 행동을 **억제(inhibit)**하여 출력을 차단하거나, 하위 계층의 입력을 자신의 출력으로 **제압(suppress)**하여 제어권을 빼앗을 수 있다.6 예를 들어, “배회하기” 계층이 로봇을 앞으로 움직이게 하는 동안, “장애물 회피” 계층이 전방의 장애물을 감지하면, “배회하기” 계층의 전진 신호를 제압하고 회피 기동 신호를 액추에이터로 보낸다. 이처럼 복잡한 중앙 통제 장치 없이도, 행동들 간의 우선순위가 동적으로 해결된다.
-
분산 및 병렬 처리: 각 행동 모듈은 **증강 유한 상태 기계(Augmented Finite State Machines, AFSMs)**라고 불리는 단순한 계산 단위들의 네트워크로 구현된다.6 이 모듈들은 비동기적으로, 병렬적으로 실행되어 시스템의 반응성을 극대화하고, 일부 모듈이 고장 나더라도 전체 시스템이 멈추지 않는 강건성(robustness)을 제공한다.
4.3 구현: 6족 보행 로봇 “징기스(Genghis)”
브룩스는 포섭 구조의 실효성을 증명하기 위해 1989년, 6족 보행 로봇 **“징기스(Genghis)”**를 제작했다.20 징기스는 브룩스의 철학이 하드웨어로 구현된 결과물이었다.
-
하드웨어 사양: 징기스는 길이 약 35cm, 무게 약 1kg의 곤충형 로봇이었다. 각 다리는 전후(advance)와 상하(balance) 움직임을 제어하는 2개의 모델 비행기용 서보 모터로 구동되었다. 센서로는 전방의 장애물을 감지하는 2개의 수염 센서, 몸체의 기울기를 측정하는 2개의 4비트 기울기 센서(피치/롤), 그리고 사람과 같은 열원을 감지하는 6개의 수동 적외선 센서 등을 탑재했다. 놀랍게도 이 모든 제어는 62.5Kbaud 토큰 링으로 연결된 4개의 온보드 8비트 마이크로프로세서에 의해 수행되었으며, 사용된 총 메모리는 1KB의 RAM과 10KB의 EPROM에 불과했다.6 이는 당시의 고성능 워크스테이션을 필요로 했던 SPA 기반 로봇들과 극명한 대조를 이루었다.
-
창발적 행동(Emergent Behavior): 징기스의 가장 놀라운 점은 보행 방식이었다. 징기스에는 중앙에서 다리의 움직임을 정교하게 조율하는 ’보행 패턴 생성기(central pattern generator)’가 존재하지 않았다. 대신, 각 다리를 제어하는 매우 단순하고 분산된 반사 작용들의 집합으로 보행이 구현되었다. 예를 들어, ‘다리가 너무 앞으로 갔으면 뒤로 움직인다’, ‘다리가 들려 있으면 앞으로 움직인다’, ’다리에 가해지는 힘이 너무 크면 살짝 든다’와 같은 규칙들이 각 다리에 독립적으로 프로그래밍되었다. 여기에 ’전체 다리의 전후 위치 합을 0으로 유지하라’와 같은 최소한의 전역적 협응 신호가 더해졌다.6
이러한 단순한 규칙들의 상호작용을 통해, 놀랍게도 안정적이고 지형에 적응하는 보행 패턴이 시스템 전체 수준에서 **창발(emerge)**했다.6 징기스는 평지를 걷는 것은 물론, 예측하지 못한 장애물을 넘거나 거친 지형을 통과할 수 있었다. 이는 복잡한 행동이 반드시 복잡하고 중앙 집중적인 제어 시스템에서 비롯될 필요는 없으며, 오히려 단순하고 분산된 구성 요소와 환경의 상호작용을 통해 자연스럽게 나타날 수 있다는 브룩스의 핵심 주장을 강력하게 증명한 사례였다. 르쿤의 연구가 아키텍처라는 계산적 제약을 통해 성공을 거두었다면, 브룩스의 연구는 로봇의 신체와 환경이라는 물리적 제약을 적극적으로 활용하여 지능을 구현한 것이다. 두 연구는 표면적으로는 정반대의 철학을 가졌지만, ’백지 상태’에서 모든 것을 학습하거나 계획하는 대신, 문제의 본질에 맞는 강력한 제약 조건을 시스템에 부여함으로써 성공에 도달했다는 깊은 공통점을 지닌다.
5. 불확실성 추론의 확장: 동적 베이즈 네트워크
5.1 배경: 주디아 펄의 확률적 추론 혁명
1989년의 또 다른 중요한 지적 흐름을 이해하기 위해서는, 그 직전인 1988년에 출간된 주디아 펄(Judea Pearl)의 기념비적인 저서 “지능 시스템에서의 확률적 추론: 그럴듯한 추론의 네트워크(Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference)“를 먼저 살펴볼 필요가 있다.24 이 책을 통해 펄은 **베이즈 네트워크(Bayesian Networks, BNs)**라는 강력한 프레임워크를 정립하며, 불확실성 하에서의 추론 문제를 다루는 AI의 방식에 혁명을 일으켰다.
베이즈 네트워크는 복잡한 시스템 내 변수들 간의 확률적 관계를 그래프 구조로 명확하고 간결하게 표현하는 도구다. 그 핵심은 두 가지 요소로 구성된다. 첫째, **방향성 비순환 그래프(Directed Acyclic Graph, DAG)**는 변수(노드)들 간의 직접적인 인과 관계 또는 의존 관계(화살표)를 질적으로 표현한다. 이 그래프 구조는 각 변수가 자신의 부모 노드가 주어졌을 때, 자신의 비-자손 노드들과 조건부로 독립이라는 가정을 내포한다. 둘째, 각 노드에는 자신의 부모 노드들의 상태에 따른 자신의 확률 분포를 정량적으로 명시하는 **조건부 확률표(Conditional Probability Table, CPT)**가 주어진다.26
이 두 요소를 통해, 시스템 내 모든 변수들에 대한 거대한 결합 확률 분포(joint probability distribution)는 다음과 같이 국소적인 조건부 확률들의 곱으로 간결하게 인수분해될 수 있다.26
P(X_1, \dots, X_n) = \prod_{i=1}^n P(X_i \vert \text{parents}(X_i))
이러한 표현 방식은 지식의 모듈성을 높이고, 새로운 증거가 주어졌을 때 신념을 갱신하는 확률적 추론을 효율적으로 수행할 수 있는 알고리즘의 기반이 되었다.
5.2 1989년의 확장: 딘과 카나자와의 동적 베이즈 네트워크
주디아 펄이 정립한 베이즈 네트워크는 강력했지만, 기본적으로 시간의 흐름을 고려하지 않는 정적인(static) 시스템을 모델링하는 데 초점이 맞춰져 있었다. 그러나 현실 세계의 많은 문제들(예: 로봇의 위치 추정, 경제 지표 예측)은 시간에 따라 상태가 계속해서 변하는 동적인(dynamic) 특성을 가진다.
1989년, 토마스 딘(Thomas Dean)과 케이지 카나자와(Keiji Kanazawa)는 이러한 한계를 극복하기 위해 베이즈 네트워크를 시간 차원으로 확장한 **동적 베이즈 네트워크(Dynamic Bayesian Networks, DBNs)**의 형식론을 제시했다.26 DBN은 시간에 따라 변화하는 시스템을 모델링하기 위한 원리적인 프레임워크를 제공했다.
DBN의 구조는 시간의 흐름에 따른 상태 변수들의 집합을 여러 **시간 슬라이스(time slice)**에 걸쳐 표현하는 방식으로 이루어진다. 일반적으로 시스템은 **마르코프 가정(Markov assumption)**을 만족한다고 가정되는데, 이는 시간 t에서의 상태 X_t가 오직 바로 이전 시간인 t-1에서의 상태 X_{t-1}에만 의존한다는 의미이다. 이러한 가정 하에, DBN은 주로 두 부분으로 간결하게 정의된다.26
-
초기 상태 네트워크 (B_0): 시간 t=0에서의 초기 상태 X_0의 사전 확률 분포 P(X_0)를 정의하는 일반적인 베이즈 네트워크.
-
상태 전이 네트워크 (B_\rightarrow): 두 개의 연속된 시간 슬라이스(t-1과 t) 간의 관계를 모델링하는 네트워크. 이는 시간 t-1의 상태로부터 시간 t의 상태로의 전이 확률 P(X_t | X_{t-1})을 정의한다.
5.3 의의와 영향
딘과 카나자와의 연구는 AI가 불확실성을 다루는 능력을 정적인 세계에서 동적인 시계열 데이터의 세계로 확장시켰다. DBN은 필터링(filtering, 현재 상태 추정), 예측(prediction, 미래 상태 예측), 스무딩(smoothing, 과거 상태 보정) 등 시계열 데이터에 대한 다양한 확률적 추론 문제를 해결하는 강력하고 일반적인 프레임워크를 제공했다.
특히 DBN은 기존에 개별적으로 연구되던 여러 시계열 모델들을 통합하는 관점을 제시했다는 점에서 중요하다. 예를 들어, 선형-가우시안 시스템을 위한 칼만 필터(Kalman Filter)나 이산 상태 공간을 위한 은닉 마르코프 모델(Hidden Markov Model, HMM)은 모두 DBN의 특별한 경우로 표현될 수 있다. 이로써 DBN은 이후 로봇 공학의 SLAM(동시적 위치 추정 및 지도 작성), 음성 인식, 생물정보학, 금융 분석 등 시간에 따라 변화하는 데이터를 다루는 수많은 분야에서 핵심적인 이론적 도구로 자리 잡게 되었다.
6. 1989년 주요 학술대회를 통해 본 AI 및 로봇 연구 동향
1989년에 열린 주요 학술대회들은 당시 AI 및 로봇 공학 분야의 연구 지형과 시대정신을 생생하게 보여준다. 새로운 패러다임이 부상하는 한편, 전통적인 연구 분야는 더욱 깊이를 더해가고 있었다.
6.1 응용 AI의 부상: 제1회 IAAI (Innovative Applications of AI)
1989년 3월, 스탠포드 대학에서 AAAI 주최로 제1회 IAAI가 개최된 것은 AI 기술의 변곡점을 상징하는 사건이었다.7 이 학회의 주된 목적은 AI 연구 성과가 실험실 수준을 넘어 상업, 산업, 그리고 인간사의 관리와 같은 “실제 문제” 해결에 어떻게 기여하고 있는지를 구체적인 사례를 통해 보여주는 것이었다.7 이는 AI 기술이 더 이상 학문적 탐구의 대상일 뿐만 아니라, 경제적, 실용적 가치를 지닌 효과적인 도구로 자리매김하고 있음을 알리는 신호탄이었다. 학회에서는 AI 기술을 기존 데이터 처리(DP) 시스템과 통합하는 방안, 그리고 AI 도입의 경제적 타당성 등이 주요 관심사로 다루어졌다.7
6.2 전통 AI의 심화: IJCAI ’89 (International Joint Conference on AI)
같은 해 8월 디트로이트에서 열린 제11회 IJCAI는 여전히 기호주의 AI가 학계의 주류를 이루고 있음을 명확히 보여주었다.3 발표된 1600페이지가 넘는 방대한 분량의 프로시딩은 지식 표현, 제약 만족 문제(Constraint Satisfaction Problems, CSP), 비단조 추론(Non-monotonic Reasoning), 계획(Planning) 및 스케줄링 등 전통적인 주제에 대한 깊이 있는 연구들로 가득했다.3 특히 병렬 컴퓨팅 환경을 활용한 탐색 알고리즘(예: Parallel Iterative A*)이나, 불완전한 지식 하에서 합리적인 결론을 도출하기 위한 다양한 논리 체계(예: Default Reasoning, Abduction)에 대한 연구가 활발히 진행되었다.3
하지만 동시에 변화의 조짐도 엿보였다. “Beyond PDP“와 같이 연결주의 모델을 다루는 논문이나, 신경망과 지식 기반 시스템을 통합하려는 시도들이 발표된 것은 새로운 패러다임이 점차 주류 학계의 인정을 받으며 진입하고 있음을 시사했다.3
6.3 로봇 공학의 핵심 과제들: ICRA ’89 & IROS ’89
로봇 공학 분야에서는 물리적 세계와의 상호작용이라는 근본적인 과제를 해결하기 위한 연구가 다각도로 진행되었다.
-
ICRA ’89 (International Conference on Robotics and Automation): 5월 애리조나주 스코츠데일에서 열린 ICRA는 로봇 공학의 핵심 기술들에 대한 광범위한 연구를 조망할 수 있는 장이었다.29 프로시딩의 목차를 살펴보면, 로봇이 환경과 물리적으로 상호작용하는 근본적인 문제인 힘 및 위치 제어, 장애물을 회피하며 효율적인 경로를 생성하는 동작 계획, 그리고 촉각 및 비전 센서를 이용한 센싱 및 인식이 주요 연구 주제였음을 알 수 있다.31 또한, 다중 손가락 핸드를 이용한 파지(grasping), 부품의 조립 순서 계획 등 제조 자동화와 직결된 연구들도 활발히 이루어졌다.31 특히 이동 로봇 분야에서는 칼만 필터와 같은 통계적 기법을 활용하여 환경 지도를 작성하고 자신의 위치를 추정하는 연구가 주목받았다.32
-
IROS ’89 (International Workshop on Intelligent Robots and Systems): 9월 일본 쓰쿠바에서 열린 IROS는 “자율 이동 로봇과 그 응용(The Autonomous Mobile Robots and Its Applications)“을 부제로 삼아, 당시 이동 로봇 분야에 대한 높아진 관심을 반영했다.33 특히 여러 대의 비-홀로노믹(non-holonomic) 차량들의 움직임을 협응시키는 경로 계획 문제와 같이, 단일 로봇을 넘어선 다중 로봇 시스템에 대한 고도화된 연구들이 논의되기 시작했다.34
표 3: 1989년 IEEE ICRA 핵심 연구 분야 및 대표 논문
| 연구 분야 | 주요 과제 | 대표 논문 제목/저자 |
|---|---|---|
| 힘/위치 제어 | 로봇이 환경과 접촉 시 발생하는 힘을 제어하며 정교한 작업을 수행하는 문제. 접촉 시 발생하는 불안정성 분석. | “An approach to force and position control of robot manipulators” 31“An analysis of contact instability in terms of passive physical equivalents“ 31 |
| 동작 계획 | 복잡한 환경에서 장애물과 충돌하지 않고 출발점에서 목표점까지의 경로를 찾는 알고리즘 개발. 다중 로봇의 충돌 회피. | “Global path planning using artificial potential fields” 31“Fast motion planning for multiple moving robots“ 31 |
| 센싱 및 인식 | 촉각 센서를 이용한 물체 형상 및 질감 인식. 비전 센서를 이용한 3차원 복원 및 객체 인식. 센서 캘리브레이션. | “Electrorheological fluid-based robotic fingers with tactile sensing” 31“Haptic object recognition using a multi-fingered dextrous hand“ 31“A new technique for fully autonomous and efficient 3D robotics hand/eye calibration“ (Tsai & Lenz) 32 |
| 조립 및 파지 | CAD 모델로부터 조립 순서를 자동으로 생성. 안정적이고 강건한 파지 전략 수립. | “Automatic assembly planning with fasteners” 31“A correct and complete algorithm for the generation of mechanical assembly sequences“ (Homem de Mello & Sanderson) 32“On grasp choice, grasp models, and the design of hands for manufacturing tasks“ (Cutkosky) 32 |
7. 결론
1989년은 단편적인 기술 발전이 이어진 해가 아니라, 현대 인공지능을 구성하는 세 가지 핵심 기둥의 사상적, 기술적 원형이 동시에 등장하며 그 존재감을 드러낸 결정적인 해였다. 이 해에 발표된 연구들은 향후 수십 년간 AI의 연구 지형을 근본적으로 바꾸어 놓았다.
첫째, 딥러닝의 원형이 등장했다. 얀 르쿤의 연구는 데이터로부터 계층적 특징을 학습하는 합성곱 신경망의 기본 구조가 복잡한 실제 문제에 적용될 수 있음을 실증적으로 보여주었다. 이는 AI가 지식을 명시적으로 프로그래밍하는 단계를 넘어, 데이터로부터 스스로 지식을 추출하는 시대로 나아가는 문을 열었다.
둘째, 강화학습의 원형이 정립되었다. 크리스토퍼 왓킨스의 Q-러닝은 환경에 대한 명시적인 모델 없이도 상호작용을 통해 최적의 행동 정책을 학습할 수 있는 강력하고 수학적으로 견고한 프레임워크를 제공했다. 이는 불확실한 환경 속에서 자율적으로 의사결정을 내리는 에이전트 개발의 이론적 토대가 되었다.
셋째, 체화된 AI의 원형이 구현되었다. 로드니 브룩스의 행동 기반 로봇 공학은 지능이 추상적인 내부 모델이 아닌, 물리적 신체와 환경의 직접적인 상호작용을 통해 창발한다는 혁신적인 철학을 실제 로봇으로 증명했다. 이는 지능을 뇌 안의 계산 과정으로만 국한하던 관점에서 벗어나, 신체와 환경을 포함하는 더 넓은 시스템으로 바라보게 만들었다.
이들 연구는 공통적으로 실제 세계의 복잡성에 정면으로 도전했다는 특징을 가진다. 르쿤은 가변성이 극심한 실제 손글씨 데이터를, 왓킨스는 명시적 모델이 없는 미지의 환경을, 브룩스는 예측 불가능하고 동적인 물리적 세계를 다루었다. 이러한 실용적 성공 사례들은 AI 연구의 무게 중심을 논리적이고 정적인 세계에서 복잡하고 불확실한 현실 세계로 이동시키는 강력한 촉매 역할을 했다.
결론적으로 1989년은 미래를 향한 서곡이었다. 이 해에 제시된 연결주의, 강화학습, 행동 기반 AI라는 세 가지 아이디어는 이후 각자의 경로를 따라 깊이 있게 발전하다가, 21세기에 들어 폭발적으로 증가한 컴퓨팅 파워와 데이터의 시대에 이르러 서로 융합되기 시작했다. 딥러닝과 강화학습이 결합하여 알파고와 같은 초인적인 딥 강화학습 에이전트를 탄생시켰고, 체화된 AI의 철학은 시뮬레이션 환경에서 이러한 에이전트를 훈련하고 검증하는 중요한 플랫폼이 되었다. 1989년은 서로 다른 목소리들이 각자의 강력한 논리를 펼치기 시작한 해였으며, 그 목소리들이 훗날 하나의 거대한 교향곡, 즉 현대 인공지능을 만들어낼 운명이었던 것이다.
8. 참고 자료
- Timeline of machine learning - Wikipedia, https://en.wikipedia.org/wiki/Timeline_of_machine_learning
- History of artificial intelligence - Wikipedia, https://en.wikipedia.org/wiki/History_of_artificial_intelligence
-
- IJCAI 1989: Detroit, Michigan, USA, http://www.sigmod.org/publications/dblp/db/conf/ijcai/ijcai89.html
- IJCAI: Proceedings of the Conference - Google Books, https://books.google.com/books/about/IJCAI.html?id=W4FFAAAAYAAJ
- Backpropagation Applied to Handwritten Zip Code … - Yann LeCun, http://yann.lecun.com/exdb/publis/pdf/lecun-89e.pdf
- Brooks (1989) A robot that walks; emergent behaviors … - Mark Wexler, http://wexler.free.fr/library/files/brooks%20(1989)%20a%20robot%20that%20walks;%20emergent%20behaviors%20from%20a%20carefully%20evolved%20network.pdf
- IAAI-89: The First Conference on Innovative Applications of Artificial Intelligence - AAAI, https://aaai.org/conference/iaai/iaai89/
- Proceedings of The First Conference on Innovative Applications of Artificial Intelligence Archives - AAAI, https://aaai.org/proceeding/iaai89/
- Proceedings of the Eleventh International Joint Conference on Artificial Intelligence (II), https://www.ijcai.org/proceedings/1989-2
- Handwritten Digit Recognition with a Back-Propagation Network - NIPS, https://proceedings.neurips.cc/paper/1989/hash/53c3bce66e43be4f209556518c2fcb54-Abstract.html
- Backpropagation Applied to Handwritten Zip Code Recognition - ScienceOpen, https://www.scienceopen.com/document?vid=5b20525b-8222-46df-a643-610027c926aa
- Backpropagation Applied to Handwritten Zip … - Galileo Unbound, https://galileo-unbound.blog/wp-content/uploads/2025/02/lecun.neco_.1989.1.4.541.pdf
- Backpropagation applied to handwritten zip code recognition (1989) | Yann LeCun | 12194 Citations - SciSpace, https://scispace.com/papers/backpropagation-applied-to-handwritten-zip-code-recognition-478un2haz4
- Handwritten Digit Recognition with a Back-Propagation Network, https://proceedings.neurips.cc/paper/1989/file/53c3bce66e43be4f209556518c2fcb54-Paper.pdf
- (PDF) Technical Note: Q-Learning - ResearchGate, https://www.researchgate.net/publication/220344150_Technical_Note_Q-Learning
- Q-Learning - Notes by Lex, https://notesbylex.com/q-learning
- Technical Note Q,-Learning, http://vocal.gatsby.ucl.ac.uk/~dayan/papers/cjch.pdf
- (Open Access) Technical Note Q-Learning (1992) | Chris Watkins - SciSpace, https://scispace.com/papers/technical-note-q-learning-8wymgrlnnk
- A BRIEF INTRODUCTION TO BEHAVIOR-BASED ROBOTICS, https://baibook.epfl.ch/exercises/behaviorBasedRobotics/BBSummary.pdf
- robots, http://www.jaist.ac.jp/~g-kampis/Lecture_Two/robots.html
- A Robot that Walks, https://web.eecs.umich.edu/~stellayu/teach/2023action/slides/1989brooksRobotThatWalksSlides.pdf
- A Robot that Walks; Emergent Behaviors from a Carefully Evolved Network - DTIC, https://apps.dtic.mil/sti/tr/pdf/ADA207958.pdf
- [PDF] A Robot that Walks; Emergent Behaviors from a Carefully Evolved Network, https://www.semanticscholar.org/paper/A-Robot-that-Walks%3B-Emergent-Behaviors-from-a-Brooks/4854c63f0e20c01ee07b5ef4ffb8bdb8671e4895
- Judea Pearl - Probabilistic Reasoning in Intelligent Systems.pdf - The Swiss Bay, https://theswissbay.ch/pdf/Gentoomen%20Library/Artificial%20Intelligence/Bayesian%20networks/Judea%20Pearl%20-%20Probabilistic%20Reasoning%20in%20Intelligent%20Systems.pdf
- Judea Pearl, Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. - ResearchGate, https://www.researchgate.net/publication/220546096_Judea_Pearl_Probabilistic_Reasoning_in_Intelligent_Systems_Networks_of_Plausible_Inference
- BAYESIAN NETWORKS Judea Pearl Computer Science …, https://www.cs.ubc.ca/~murphyk/Teaching/CS532c_Fall04/Papers/hbtnn-bn.pdf
- AAAI Digital Library Conference Proceedings, https://www.aiinternational.org/Library/conferences-library.php
- Proceedings of the Eleventh International Joint Conference on Artificial Intelligence, 2 vols.; August 20-25 1989; IJCAI-89; Detroit, Michigan, USA - Common Crow Books, https://www.commoncrowbooks.com/pages/books/C000022817/n-s-sidharan-international-conference-on-artificial-intelligence-american-association-for/proceedings-of-the-eleventh-international-joint-conference-on-artificial-intelligence-2-vols
- Publications - Robotics Institute Carnegie Mellon University, https://www.ri.cmu.edu/pubs/page/239/
- Robotics and Automation, IEEE International Conference On, ’89 - University of Sunderland, https://librarysearch.sunderland.ac.uk/discovery/fulldisplay?docid=alma991001895835207451&context=L&vid=44UNOS_INST:44UNOS_INST&lang=en&search_scope=44SUR_NOT_NHS&adaptor=Local%20Search%20Engine&tab=44SUR_NOT_NHS&query=sub%2Cexact%2C%20Industrial%20robots%20%2CAND&mode=advanced&offset=0
- 1989 IEEE International Conference on Robotics and Automation, https://www.computer.org/csdl/proceedings/robot/1989/12OmNzwpUaS
- Top 354 papers presented at International Conference on Robotics …, https://scispace.com/conferences/international-conference-on-robotics-and-automation-27g6ts5l/1989
- Proceedings. IEEE/RSJ International Workshop on Intelligent Robots and Systems ’ : (IROS ’89) ’The Autonomous Mobile Robots and Its Applications - Royal Holloway, University of London, https://librarysearch.royalholloway.ac.uk/discovery/fulldisplay/alma997527946402671/44ROY_INST:44ROY_VU2
- Planning Movements for Several Coordinated Vehicles - Intelligent Robots and Systems ’89. (IROS ’89). ’The Autonomou - e-Motion, http://emotion.inrialpes.fr/fraichard/publications/refereed-conferences/89-iros-fraichard-laugier.pdf